大多数维度降低方法采用频域表示,从基质对角线化获得,并且对于具有较高固有维度的大型数据集可能不会有效。为了应对这一挑战,相关的聚类和投影(CCP)提供了一种新的数据域策略,不需要解决任何矩阵。CCP将高维特征分配到相关的群集中,然后根据样本相关性将每个集群中的特征分为一个一维表示。引入了残留相似性(R-S)分数和索引,Riemannian歧管中的数据形状以及基于代数拓扑的持久性Laplacian进行可视化和分析。建议的方法通过与各种机器学习算法相关的基准数据集验证。
translated by 谷歌翻译
训练视觉和语言模型的更多数据总是更好吗?我们研究多模式任务中的知识可传递性。当前的机器学习趋势是假设通过从不同任务加入多个数据集,其整体绩效将有所改善。但是,我们表明,并非所有知识都会很好地转移或对相关任务产生积极影响,即使它们共享一个共同的目标也是如此。我们基于数百种分为4组的视觉和语言任务进行了数百个跨表现的分析。尽管同一组中的任务容易相互改进,但结果表明并非总是如此。其他因素(例如数据集大小或训练阶段)也对知识的转移程度也有很大的影响。
translated by 谷歌翻译
我们考虑将每个代理分配一个项目时改革无嫉妒的匹配的问题。给定无嫉妒的匹配,我们考虑一个操作,将代理商与代理人首选的未分配项目交换,从而导致另一种无嫉妒的匹配。我们尽可能地重复此操作。我们证明,由此产生的无嫉妒匹配是唯一确定的,可以在选择初始嫉妒的匹配下进行选择,并且可以在多项式时间中找到。我们称之为由此产生的匹配,是一个不正确的嫉妒的匹配,然后我们研究了最短的序列,以从最初的无嫉妒匹配中获得无嫉妒的嫉妒匹配。我们证明,即使每个代理最多接受四个项目,最短的序列在计算上也很难获得,并且每个项目最多都被三个代理所接受。另一方面,当每个代理最多接受三个项目或最多两个代理接受每个项目时,我们给出多项式时间算法。还讨论了不可Ximibibibibibibility和固定参数(IN)的障碍性。
translated by 谷歌翻译
在本文中,我们开发了一种使用深神经网络(DNNS)的非组织和非线性时间序列的自适应非参数估计的一般理论。我们首先考虑两种类型的DNN估计量,非含糖和稀疏的DNN估计器,并为一般非平稳时间序列建立其泛化误差界限。然后,我们得出最小值下限,以估计属于一类非线性自回旋(AR)模型的平均功能,这些功能包括非线性通用添加剂AR,单个索引和阈值AR模型。在结果的基础上,我们表明稀疏的DNN估计量具有自适应性,并达到了许多非线性AR模型的最小最佳速率,直至多构型因子。通过数值模拟,我们证明了DNN方法在估计具有内在的低维结构和不连续或粗糙平均功能的非线性AR模型的有用性,这与我们的理论一致。
translated by 谷歌翻译
排名已成为双面在线市场的主要界面。许多人指出,排名不仅影响用户的满意度(例如,客户,听众,雇主,旅行者),而且排名中的位置将曝光率分配给排名项目(例如,例如文章,产品,歌曲,求职者,餐馆,酒店)。这已经提出了对项目的公平性问题,大多数现有作品通过将项目的暴露与项目相关性明确链接在一起,从而解决了公平性。但是,我们认为,这种链接功能的任何特定选择都可能很难捍卫,我们表明结果排名仍然不公平。为了避免这些缺点,我们开发了一种植根于公平分裂原则的新的公理方法。这不仅避免了选择链接功能的需求,而且更有意义地量化了对曝光范围之外的项目的影响。我们对统一排名的嫉妒性和主导地位的公理假设,对于公平排名政策,每个项目都应该比其他任何项目的排名分配,并且任何项目都不应受到排名的不利影响。为了计算按照这些公理的公平政策,我们提出了一个与纳什社会福利有关的新排名目标。我们表明,该解决方案已保证其嫉妒性,其对每个项目的统一排名的主导地位以及帕累托的最优性。相比之下,我们表明,基于暴露的公平性可以产生大量嫉妒,并对这些物品产生高度不同的影响。除了这些理论上的结果外,我们还从经验上说明了我们的框架如何控制基于影响的个人项目公平和用户实用程序之间的权衡。
translated by 谷歌翻译
在上下文土匪中,非政策评估(OPE)已在现实世界中迅速采用,因为它仅使用历史日志数据就可以离线评估新政策。不幸的是,当动作数量较大时,现有的OPE估计器(其中大多数是基于反相反的得分加权)会严重降解,并且可能会遭受极端偏见和差异。这挫败了从推荐系统到语言模型的许多应用程序中使用OPE。为了克服这个问题,我们提出了一个新的OPE估计器,即当动作嵌入在动作空间中提供结构时,利用边缘化的重要性权重。我们表征了所提出的估计器的偏差,方差和平方平方误差,并分析了动作嵌入提供了比常规估计器提供统计益处的条件。除了理论分析外,我们还发现,即使由于大量作用,现有估计量崩溃,经验性绩效的改善也可以实现可靠的OPE。
translated by 谷歌翻译
全根树的递归和分层结构适用于在各个领域代表统计模型,例如数据压缩,图像处理和机器学习。在大多数情况下,全根树不是随机变量;因此,避免过度装备的模型选择变得有问题。解决这个问题的方法是假设全根树上的先前分发。这使得基于贝叶斯决策理论可以避免过度装备。例如,通过将低的先前概率分配给复杂模型,最大后验估计器可防止过度拟合。此外,可以通过平均由其后后索加权的所有模型来避免过烧。在本文中,我们提出了一组全根树的概率分布。其参数表示适用于使用递归函数计算我们分发的性质,例如模式,期望和后部分布。尽管在以前的研究中已经提出了这种分布,但它们仅适用于特定应用。因此,我们提取他们的数学基本的组件,并推出了新的广义方法来计算期望,后部分布等。
translated by 谷歌翻译
虽然许多NLP管道采用RAW,清洁文本,但我们在野外遇到的许多文本,包括绝大多数法律文件,并不是那么干净,其中许多人在视觉上结构化文件(VSD),如PDF。用于VSD的传统预处理工具主要集中在字分割和粗布局分析上,而VSD的细粒度逻辑结构分析(例如识别段界限及其层次结构)是曝光的。为此,我们建议将任务作为预测“转换标签”在将片段映射到树的文本片段之间的预测,并开发了一种基于特征的机器学习系统,该系统保留了视觉,文本和语义线索。您的系统很容易可定制不同类型的VSD,并且它显着超越了识别VSD中不同结构的基线。例如,我们的系统获得了0.953的段落边界检测F1得分,这显着优于流行的PDF到文本工具,F1得分为0.739。
translated by 谷歌翻译
The status of retinal arteriovenous crossing is of great significance for clinical evaluation of arteriolosclerosis and systemic hypertension. As an ophthalmology diagnostic criteria, Scheie's classification has been used to grade the severity of arteriolosclerosis. In this paper, we propose a deep learning approach to support the diagnosis process, which, to the best of our knowledge, is one of the earliest attempts in medical imaging. The proposed pipeline is three-fold. First, we adopt segmentation and classification models to automatically obtain vessels in a retinal image with the corresponding artery/vein labels and find candidate arteriovenous crossing points. Second, we use a classification model to validate the true crossing point. At last, the grade of severity for the vessel crossings is classified. To better address the problem of label ambiguity and imbalanced label distribution, we propose a new model, named multi-diagnosis team network (MDTNet), in which the sub-models with different structures or different loss functions provide different decisions. MDTNet unifies these diverse theories to give the final decision with high accuracy. Our severity grading method was able to validate crossing points with precision and recall of 96.3% and 96.3%, respectively. Among correctly detected crossing points, the kappa value for the agreement between the grading by a retina specialist and the estimated score was 0.85, with an accuracy of 0.92. The numerical results demonstrate that our method can achieve a good performance in both arteriovenous crossing validation and severity grading tasks. By the proposed models, we could build a pipeline reproducing retina specialist's subjective grading without feature extractions. The code is available for reproducibility.
translated by 谷歌翻译